第一章 概率论的基本概念

对于世界上的所有事件,我们都能把它们分成两类:确定性现象随机现象

对于前者,暂时没什么好讨论的
对于后者,在大量重复的实验中,人们发现虽然它每一次的结果都不确定,但总体结果却呈现出某种规律性,这种固有的、确定的规律性,我们称为统计规律性

统计是什么意思?为什么这里会出现这个词?它和概率论是什么关系?

统计学和概率论是两码事,但是它们关系匪浅。
统计,针对的是实际的数据,比如测量某一年里放晴的天数、计算某个人上学迟到的频率等等,这些都直接对应实际场景,具有很直白的现实意义。
概率,是对事件发生的可能性进行研究,它是更抽象一层的,不需要对应实际的事件,但它可以用来帮助对统计出的数据进行分析。

依我拙见,概率是一种从外部揭示事件发生规律的手段,而事件的规律又必须依托大量实际数据来展现,详细来说就是:事件的发生与否被一种我们暂未发现的规律(可以想象成某个数学公式)所掌控,这个规律在操控的同时也会将自身的特征投射在事件上,而统计学就是把这些特征收集起来并整理好,概率论就是试图通过这些特征来反过来逼近事件背后藏着的规律,甚至对规律的行为进行预测。
比如说,在打数模比赛的时候我就发现,在计算数据的平均值、标准差、偏度峰度之类的时候,我们都称其为计算统计量,和概率一点边都不沾。我做过的唯一一道和概率强相关的题只有2024国赛的B题,而那题一个附件(实际数据)也没有:题目已经把统计的事情帮选手干完了,直接给的是统计后的数据。

本系列的前大部分章节都是讲的概率论的知识,只有后面少数几章讲的是统计学。

随机试验

此处的试验二字含义很广泛,并不只表示进行科学实验,而是笼统地表示:对某一事物的某一特征进行观察。

随机试验是对随机事件进行反复的观察,要求是得在相同的条件下进行试验,并且在试验前就能明确其结果的所有可能性

得在相同条件下这一点很好理解,毕竟条件不同的话事件发生的规律会发生变化,而我们是在假定规律不变的情况下进行概率的研究。

但是为什么要在试验前就明确结果的范围呢?如果不明确,这个试验不还是随机的吗,为什么不算是随机试验?

此随机非彼随机,我们口头上常说的”随机“,其实应该是指的不确定事件。没错,不打引号、专业术语的随机试验只是不确定事件的一部分,相当于我们给所有结果随机的事件又分了两类,一类是随机试验,需要满足上面那些条件,另一类是非随机试验,不需要满足那些条件。概率论所研究的主要是前者,而后者就暂时不提了。

样本空间、随机事件

假设有某随机试验 E
我们知道,随机试验的结果范围是已知的,而这个由可能的结果组成的集合 S ,就称为 E样本空间。样本空间的每个元素,即 E 的每个结果,都称为样本点。集合 S 的子集就叫做 E随机事件,简称事件。换句话说,事件就是随机试验某些结果的集合。

严格来说,当 S 的元素是无限且不可列的时候,某些子集不能作为事件。但本系列中将假定谈到事件时碰到的所有集合都不是这种子集。

所以,样本空间 S 也是事件,而且是必然事件;相对地,空集 就是不可能事件;特殊地,只包含一个样本点的事件叫做基本事件

既然事件实质上就是集合,那么我们在集合论那里学过的东西就能派上用场了!

  1. AB :事件B包含事件A;若 AB,BA ,则A和B相等
  2. AB={x|xAxB} :事件A和事件B的和事件(相当于两个集合的并集)
  3. AB={x|xAxB} :事件A和事件B的积事件(相当于两个集合的交集)
  4. AB={x|xAxB} :事件A和事件B的差事件
  5. AB= :事件A和事件B是互斥/互不相容
  6. AB=AB=S :事件A和事件B互为逆事件/对立事件。可以将A的对立事件记为A¯

更多的集合论公式,比如交换律结合律之类的,此处不再多言。

频率与概率

写了这么多,概率终于露面了,但在此之前,我们还得了解一下频率。

在相同的条件下进行n次实验,在这n次实验中事件A发生的次数 nA ,就称为A发生的频数,而比值 nAn 就是A发生的频率。频率值越大,表明事件发生得越频繁,也就可以说明事件在一次实验中发生的概率越大。而这也就引出了概率的概念。

虽然概率这个概念好像非常自然,但有人可能还会有疑问:概率是实际存在的吗?

比方说,我从宿舍走到教学楼所用的时间,这似乎是不确定的:有时候下雨,时间会长一点,如果马上要上课了,时间就会短很多,但总体而言大概率是在十五分钟左右的。那么如果我把所有会影响到时间的变量都掌握住呢,这样一来岂不是能够精准地预测时间?此时这个概率不就相当于不存在吗,因为最终的时间只可能是我所算出来的这个答案。

我觉得这种想法并不会对概率的必要性构成什么“威胁”(据说这种就是机械唯物主义?)。因为“控制所有变量”在现实中是完全不可能的,这也意味着上述的设想是没有什么意义的,概率在我们人类的世界里仍然并将永远存在下去。

概率的定义里有三条重要的条件:

  1. 非负性:对任意一个事件A,P(A)0
  2. 规范性:对必然事件S,P(S)=1
  3. 可列可加性:若 AIAJ=,ij,i,j=1,2, ,则 P(A1A2)=P(A1)+P(A2)+

以及几条重要的性质:

  1. P()=0
  2. (有限可加性)P(A1A2)=P(A1)+P(A2)+
  3. AB ,则 P(BA)=P(B)P(A),P(B)P(A)
  4. P(A)1
  5. (逆事件的概率)P(A¯)=1P(A)
  6. (加法公式)P(AB)=P(A)+P(B)P(AB)
    这一条相当于容斥原理
    推广后得到:
    P(A1A2An)=i=1nP(Ai)1ijnP(AiAj)++(1)n1P(A1A2An)

等可能概型(古典概型)

对于前文所说的试验,如果满足以下这两个条件,我们就称其为等可能概型

  1. 样本空间的元素个数是有限的
  2. 试验中每个基本事件(样本点)发生的可能性相同

“概型”就是概率模型的意思,也就是试验的意思。
等可能概型很直观、容易理解,在概率论的发展初期,人们以它为主要的研究对象,所以我们也称其为古典概型(类似于密码学里的古典密码)

这种每个样本点概率都相同的试验,想必大家都再熟悉不过了,我们小学和中学阶段做过无数此类型的题目,所以我就不做过多叙述了。

等可能概型中事件A的概率的计算公式:
P(A)=AS

显然,这里的 P(A) 满足非负性、规范性、有限可加性,但是它是否满足可列可加性?

一般来说,有限可加性 可列可加性 (相关的证明超出了我的知识范围故不作解释)。

不过在这里,我们可以假设在 S 中取无限多个两两互不相容的事件,而 S 本身的子集是有限的,所以这无限多个事件里会有无限个不可能事件,概率相加之后仍然等于那些有限个事件的概率之和,所以可以知道此时有限可加性和可列可加性是等价的。

实际推断原理:概率很小的事件在一次试验中实际上几乎是不发生的。

条件概率

在大多数情况下,我们其实研究的并不是单独一个事件的概率,而是两个乃至多个事件综合影响得到的结果。条件概率 指的就是在另一个事件 A 发生的条件/前提下,某个事件 B 发生的概率。

定义式为: P(BA)=P(AB)P(A)

我认为值得一提的是,P(AB)P(BA) 是一个意思,都是指事件A和事件B同时发生时的概率,A和B都是总事件的一部分,没有先后之分;而 P(BA) 就不一样了,分隔符表示右边的这个A是条件,而不是事件的一部分,此时就有先后之分,但这个”先后“并非时间上的先后,只是逻辑上的而已。

显然,条件概率也能满足非负性规范性可列可加性

由定义式,我们能得到下面这个定理:

乘法定理 P(AB)=P(BA)P(A)=P(AB)P(B)

可能有人要问:这和定义式不是一回事吗?只不过把分母乘过去了而已,这也要单独作为一个定理吗?

我认为这是因为虽然这两个式子本质上一样,但这是两种写法,代表了不同的含义,或者说是不同的角度。一种考虑的是条件概率的本质,另一种考虑的是总体事件的推演。

假设试验 E 的样本空间是 S ,那么把 S 里的每个样本点都分个类,这些分出来的类的集合就是 S 的一个划分。形式化来说就是:B1,B2,,BnE 的一组事件,若

  1. BiBj,ij
  2. B1B2Bn=S
    则称 B1,B2,,BnS 的一个划分。

像这样对样本空间进行划分,可以更加方便我们表示事件及事件之间的关系。

由前面提到过的各种性质,我们可以得到两个非常常用的公式:

全概率公式
B1,B2,,BnS 的一个划分,
P(A)=P(AB1)P(B1)++P(ABn)P(Bn)

贝叶斯公式
B1,B2,,BnS 的一个划分,且 P(A)>0,P(Bi)>0
P(BiA)=P(ABi)P(Bi)j=1nP(ABj)P(Bj)

我们在使用这些公式的时候会发现,有的时候我们是在”正“着计算概率,有时却是”倒“着计算,这其实就是所谓的 先验概率后验概率 之分。

独立性

为了简化概率的计算,我们把一部分不会对彼此概率产生影响的事件挑出来作为一类,称其两两之间相互独立,很容易就能得到独立的定义式:
P(AB)=P(A)P(B) ,则称 A 和 B 相互独立。

一些相关的性质:

  1. 若 A 和 B 相互独立,则 P(AB)=P(A) (这条性质直观地表明了:相互独立的事件之间不会影响彼此发生的概率)
  2. 若 A 和 B 相互独立,则 AB¯A¯BA¯B¯ 之间也都相互独立

需要特别注意的一点是:相互独立并不表示A的发生不会影响B,而是表示A的发生不会影响B发生的概率

我用一道课后习题来作为例子:
在一个盒子里有四个球,编号分别为1号、2号、3号、4号,一个人随机拿出一个球。
事件A:拿出的球是1号或2号
事件B:拿出的球是1号或3号
此时,P(A)=12,P(B)=12,P(AB)=14
P(AB)=P(A)P(B) ,事件A和事件B的确是相互独立的
显然,事件A的发生对事件B是有影响的,但是没有影响B的概率:
如果A发生了,那么B有一半的概率发生;如果A没有发生,B也还是有一半的概率发生
也即:P(BA)=P(BA¯)

独立的概念还可以继续推广:

设 A、B、C 是三个事件,则
P(AB)=P(A)P(B)
P(AC)=P(A)P(C)
P(BC)=P(B)P(C)
P(ABC)=P(A)P(B)P(C)
这四个条件合在一起,是 A,B,C 的充分必要条件

为什么这四个条件缺一不可呢?
其实网上已经有了很多精妙的回答,我此处只粗浅地谈一下我的理解:
类似于探讨两个事件独立性时的思路,看 ABC 和 A、B、C 之间的独立性,其实就是看当 A、B、C 发生或不发生对 ABC 的概率的影响。如果只有前三个条件的话,就忽略了三个事件整体之间的影响。
有很多这样的例子,比如说:盒子里有四个球,一个人随机拿出一个。
事件A:拿出的是1或4号;事件B:拿出的是2或4号;事件C:拿出的是3或4号
单看这三个事件,它们两两之间都是相互独立的,如果事件A发生了,这不会影响到我对事件B是否发生的判断;而如果事件A和事件B都发生了,那么就影响到了我对事件C是否发生的判断